flowrl

优化大模型强化学习训练，上交大联合微软清北提出FlowRL，让AI推理更具泛化力

你给它一道题，它可能很快能找到一个能拿高分的解法。然后，它就会把这个解法焊在脑子里，以后碰到所有类似的题，翻来覆去就是这一招。这种现象，行话叫“模式崩溃”（mode collapse）。